ベイズ統計学勉強会 夏`22
安藤 正和
巨大なデータを扱うときにはCSVではなくParquetを使うと便利です。
dplyrバックエンドの速度比較をやってみた。dtplyrの日本語の情報が少ないので共有したい。
dplyr派dbplyrやdtplyrを試す機会のなかった方data.table派Q. data.tableって速いの?
A. dtplyrですぐに試せるのでやってみましょう!
(tidyverseパッケージインストール時にインストールされてます!)
dtplyr, arrow, duckdbdplyrバックエンド達dplyrで記述したデータ操作をdplyr外で実行するパッケージ。
multidplyr : Rの計算を分散dtplyr : data.tableのクエリに変換して計算実行dbplyr : duckdbなどのDBにSQLを送信して計算実行R version 4.2.1 (2022-06-23 ucrt)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 10 x64 (build 19044)
Matrix products: default
locale:
[1] LC_COLLATE=Japanese_Japan.utf8 LC_CTYPE=Japanese_Japan.utf8
[3] LC_MONETARY=Japanese_Japan.utf8 LC_NUMERIC=C
[5] LC_TIME=Japanese_Japan.utf8
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] duckdb_0.4.0 DBI_1.1.3 arrow_9.0.0 dtplyr_1.2.1 dplyr_1.0.9
loaded via a namespace (and not attached):
[1] knitr_1.39 magrittr_2.0.3 bit_4.0.4 tidyselect_1.1.2
[5] R6_2.5.1 rlang_1.0.4 fastmap_1.1.0 fansi_1.0.3
[9] stringr_1.4.0 tools_4.2.1 data.table_1.14.2 xfun_0.32
[13] utf8_1.2.2 cli_3.3.0 htmltools_0.5.3 bit64_4.0.5
[17] assertthat_0.2.1 yaml_2.3.5 digest_0.6.29 tibble_3.1.8
[21] lifecycle_1.0.1 purrr_0.3.4 codetools_0.2-18 vctrs_0.4.1
[25] glue_1.6.2 evaluate_0.16 rmarkdown_2.14 stringi_1.7.8
[29] compiler_4.2.1 pillar_1.8.0 generics_0.1.3 jsonlite_1.8.0
[33] pkgconfig_2.0.3
ベイズ統計学勉強会 夏`22